Sélection supervisée d'instances : une approche descriptive

نویسندگان

  • Sylvain Ferrandiz
  • Marc Boullé
چکیده

Résumé. La classification suivant le plus proche voisin est une règle simple et performante. Sa mise en oeuvre pratique nécessite, tant pour des raisons de coût de calcul que de robustesse, de sélectionner les instances à conserver. La partition de Voronoi induite par les prototypes constitue la structure sous-jacente à cette règle. Dans cet article, on introduit un critère descriptif d’évaluation d’une telle partition, quantifiant le compromis entre nombre de cellules et discrimination de la variable cible entre les cellules. Une heuristique d’optimisation est proposée, tirant partie des propriétés des partitions de Voronoi et du critère. La méthode obtenue est comparée avec les standards sur une vingtaine de jeux de données de l’UCI. Notre technique ne souffre d’aucun défaut de performance prédictive, tout en sélectionnant un minimum d’instances. De plus, elle ne surapprend pas.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...

متن کامل

Une méthode optimale d'évaluation bivariée pour la classification supervisée

Résumé. En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive joint...

متن کامل

Sélection topologique de variables dans un contexte de discrimination

Résumé. En apprentissage automatique, la présence d’un grand nombre de variables explicatives conduit à une plus grande complexité des algorithmes et à une forte dégradation des performances des modèles de prédiction. Pour cela, une sélection d’un sous-ensemble optimal discriminant de ces variables s’avère nécessaire. Dans cet article, une approche topologique est proposée pour la sélection de ...

متن کامل

Une sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means

Résumé. Le volume d’information contenu dans un entrepôt de données s’accroît sans cesse, augmentant de ce fait le temps d’exécution des requêtes décisionnelles. Pour y remédier, l’administrateur doit, durant la phase de conception physique de l’entrepôt, effectuer une sélection de structures d’optimisation (index, vues matérialisées ou fragmentation), puis assurer leur gestion et maintenance. ...

متن کامل

Caractérisation automatique des classes découvertes en classification non supervisée

Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006